22 research outputs found

    Length analysis of speech to be recorded in the recognition of Parkinson's disease

    Get PDF
    Parkinson's disease is an incurable neurodegenerative disease to the present clinical knowledge. It is diagnosed mostly by exclusion tests. Numerous studies have confirmed that speech can be promising to suspect the presence of the disease. On the other hand, just a few researches discuss the appropriate length of the speech sample or the contribution of parts of the full-length recordings in the classification. Hence, we partitioned each original recording into four shorter samples. We trained linear and radial basis function (rbf) kernel Support Vector Machine (SVM) models separately for original recordings, each partitioned group and all partitioned samples together. We found no significant difference between the results of the rbf kernel models. However, we obtained significantly better results with a portion of the entire speech using linear kernel models. In conclusion, even a shorter piece of a longer speech may be adequate for classification

    Effects of language mismatch in automatic forensic voice comparison using deep learning embeddings

    Full text link
    In forensic voice comparison the speaker embedding has become widely popular in the last 10 years. Most of the pretrained speaker embeddings are trained on English corpora, because it is easily accessible. Thus, language dependency can be an important factor in automatic forensic voice comparison, especially when the target language is linguistically very different. There are numerous commercial systems available, but their models are mainly trained on a different language (mostly English) than the target language. In the case of a low-resource language, developing a corpus for forensic purposes containing enough speakers to train deep learning models is costly. This study aims to investigate whether a model pre-trained on English corpus can be used on a target low-resource language (here, Hungarian), different from the model is trained on. Also, often multiple samples are not available from the offender (unknown speaker). Therefore, samples are compared pairwise with and without speaker enrollment for suspect (known) speakers. Two corpora are applied that were developed especially for forensic purposes, and a third that is meant for traditional speaker verification. Two deep learning based speaker embedding vector extraction methods are used: the x-vector and ECAPA-TDNN. Speaker verification was evaluated in the likelihood-ratio framework. A comparison is made between the language combinations (modeling, LR calibration, evaluation). The results were evaluated by minCllr and EER metrics. It was found that the model pre-trained on a different language but on a corpus with a huge amount of speakers performs well on samples with language mismatch. The effect of sample durations and speaking styles were also examined. It was found that the longer the duration of the sample in question the better the performance is. Also, there is no real difference if various speaking styles are applied

    Effects of emotional speech on forensic voice comparison using deep speaker embeddings

    Get PDF
    Emotional conditions play a significant role in forensic voice comparison and speaker verification systems. When emotion is present in speech, the verification's performance will deteriorate. In this paper, speaker verification has been investigated and analyzed in the case of emotional speech using metrics evaluating the performance of forensic voice comparison using pre-trained speaker embedding models: x-vector and ECAPA-TDNN for embedded feature extraction. This study investigates whether emotional content affects the forensic voice comparison and verification performance evaluated on a Hungarian speech dataset. The speaker verification performance has been assessed using the likelihood-ratio framework using Cllr and Cllrmin and Equal Error Rate. The ECAPATDNN achieved higher performance than the x-vector. In the same emotion scenario, the best EERs were 2.6% and 7.7% for ECAPA-TDNN and x-vector. Both models are sensitive to the emotional content of the speech samples

    Deep learning methods in speaker recognition: a review

    Full text link
    This paper summarizes the applied deep learning practices in the field of speaker recognition, both verification and identification. Speaker recognition has been a widely used field topic of speech technology. Many research works have been carried out and little progress has been achieved in the past 5-6 years. However, as deep learning techniques do advance in most machine learning fields, the former state-of-the-art methods are getting replaced by them in speaker recognition too. It seems that DL becomes the now state-of-the-art solution for both speaker verification and identification. The standard x-vectors, additional to i-vectors, are used as baseline in most of the novel works. The increasing amount of gathered data opens up the territory to DL, where they are the most effective

    Cross-lingual dysphonic speech detection using pretrained speaker embeddings

    Get PDF
    In this study, cross-lingual binary classification and severity estimation of dysphonic speech have been carried out. Hand-crafted acoustic feature extraction is replaced by the speaker embedding techniques used in the speaker verification. Two state of art deep learning methods for speaker verification have been used: the X-vector and ECAPA-TDNN. Embeddings are extracted from speech samples in Hungarian and Dutch languages and used to train Support Vector Machine (SVM) and Support Vector Regressor (SVR) for binary classification and severity estimation, in a cross-language manner. Our results were competitive with manual feature engineering, when the models were trained on Hungarian samples and evaluated on Dutch samples in the binary classification of dysphonic speech and outperformed in estimating the severity level of dysphonic speech. Moreover, our model achieved 0.769 and 0.771 in Spearman and Pearson correlations. Also, our results in both classification and regression were superior compared to manual feature extraction technique when models were trained on Dutch samples and evaluated on Hungarian samples with only a limited number of samples are available for training. An accuracy of 86.8% was reached with features extracted from embedding methods, while the maximum accuracy using hand-crafted acoustic features was 66.8%. Overall results show that Emphasized Channel Attention, Propagation and Aggregation in Time Delay Neural Network (ECAPA-TDNN) performs better than the former X-vector in both tasks

    Forensic authorship classification by paragraph vectors of speech transcriptions

    Get PDF
    In forensic comparison, document classification techniques are used mainly for authorship classification and author profiling. In the present study, we aim to introduce paragraph vector modelling (by Doc2Vec) into the likelihoodratio framework paradigm of forensic evidence comparison. Transcriptions of spontaneous speech recording are used as input to paragraph vector extraction model training. Logistic regression models are trained based on cosine distances of paragraph vector pairs to predict the same and different author origin probability. Results are evaluated according to different speaking styles (transcriptions of speech tasks available in the dataset). Cllr and equal error rate values (lowest ones are 0.47 and 0.11, respectively) show that the method can be useful as a feature for forensic authorship comparison and may extend the voice comparison methods for speaker verification

    Ügyfél érzelmi állapotának detektálása telefonos ügyfélszolgálati dialógusban

    Get PDF
    A cikkünkben egy érzelem-felismerési kísérletrl számolunk be, ahol a spontán társalgás során a semlegesrl idegesre, feszültre megváltozott érzelmi állapotot kívánjuk automatikusan detektálni, telefonon keresztül. A cél egy automatikus figyelrendszer kifejlesztése, amely meghatározza az ügyfél elégedettségének, vagy elégedetlenségének a mértékét. Ehhez a munkához létrehoztuk, 1000 telefonhívás-felvételbl az ún Magyar Telefonos Ügyfélszolgálati Beszéd Adatbázist (MTÜBA), amelyben a spontán dialógusok nyelvi tartalmát, valamint frázisonkénti érzelmi tartamát jelöltük be. Az akusztikai elfeldolgozás után az érzelem-felismerést support vector machine (SVM) osztályozó segítségével végeztük. Az SVM osztályozóval végül is csak 2 állapotot, egy semleges, és egy elégedetlenséget kifejez (ideges és panaszkodó együtt) állapotot különböztettünk meg. Az automatikus figyelrendszer részére kiválasztottunk 15 másodperc hosszú figyel ablakot, amelyen belül összeszámoltuk az elégedetlenséget jelz frázisok számát. Ez adta meg az elégedetlenség mértékét. Az ablakot 10 másodpercenként léptettük elre a beszélgetés folyamán. Kísérletezéssel beállítható volt egy olyan elégedetlenségi mérték küszöb, amely felett jelzés (riasztás) történik. Amennyiben ez a küszöb a 30%-os elégedetlenségi mérték, akkor az átlagos riasztási pontosság 89,6% volt, ami legtöbbször csak a kézi és az automatikus riasztás közötti idcsúszásból eredt. Így a kifejlesztett automatikus figyelrendszer hasznos eszköz lehet diszpécser központokban

    FORvoice 120+: Statisztikai vizsgálatok és automatikus beszélő verifikációs kísérletek időben eltérő felvételek és különböző beszéd feladatok szerint

    Get PDF
    A jelen tanulmányban a FORvoice120+ adatbázison végzett akusztikai-fonetikai elemzéseket és automatikus beszélő azonosítási kísérleteket mutatjuk be, a jelenleg elkészült 60 beszélő felvételeivel. Személyfüggő akusztikai jellemzők statisztikai vizsgálatait és automatikus beszélő verifikációs teszteket végeztünk különböző időbeli és beszéd típusbeli eltérések elemzésére. A statisztikai elemzéseknél alaphanghoz, formánsokhoz és beszéd tempóhoz kapcsolódó akusztikai-fonetikai jellemzőket vizsgálatunk. Az eredmények azt mutatták, hogy az eltérő időben történő hangrögzítések alig befolyásolták a jellemzők statisztikai értékeit, míg az eltérő beszédfeladatoknál jelentős eltérés volt tapasztalható. Automatikus beszélő azonosítási (verifikációs) kísérleteket is végeztünk ivektor és x-vektor implementációkkal. A tesztek alapján elmondható, hogy minél hosszabb beszéd szegmenseket alkalmazunk, annál pontosabb lesz a felismerési eredmény

    FORvoice 120+ : magyar nyelvű utánkövetéses adatbázis kriminalisztikai célú hangösszehasonlításra

    Get PDF
    A jelen tanulmányban elsőként kerül bemutatása a FORvoice 120+ magyar nyelvű kriminalisztikai célú utánkövetéses adatbázis. A FORvoice célkitűzése egy kriminalisztikai szempontból megbízható, követéses, reprezentatív beszélői adatbázis elkészítése magyar nyelven. Az adatbázis vizsgálati anyagot biztosít a magyar nyelven történő kriminalisztikai fonetikai kutatásokhoz, illetve a törvényszéki hang-összehasonlító rendszerek fejlesztéséhez és kiértékeléséhez. Az adatbázis 120 beszélő (60 női és 60 férfi) felvételét fogja tartalmazni. A felvételek szigorú protokoll szerint történnek, amelyek követik a nemzetközi irányokat. A FORvoice lehetőséget biztosít, hogy azon akusztikai, fonetikai, nyelvészeti, beszédtechnológiai kutatásokat végezhessenek, külön tekintettel az adatközlő egyéni beszéd tulajdonságára, továbbá a törvényszéki hang-összehasonlító rendszerek fejlesztéséhez és kiértékeléséhez, új, egyéni akusztikai-fonetikai jellemzők megállapításához
    corecore